宋柔:为什么要研究小句复合体的语法结构?丨《小句复合体的语法结构》面世
//
近日,由宋柔教授所著的《小句复合体的语法结构》在商务印书馆出版。宋柔教授是从事计算语言学的资深专家,既有自然语言处理方面的专长,又熟悉和关心语言学本体研究的现状和进展,他相信语言学的研究只要路子对头,是可以为人工智能和语言工程做出贡献的。
今刊本书前言,以飨学林。
前 言
文丨宋柔
一
本书的研究内容
本书研究书面文本的一个语法层级——小句复合体,注重于它的语法结构。
书面文本区别于口语。我们关注的是文字序列,而不是语音序列,也不是口语交谈的书面记录。本书一般不涉及语调、停顿等语音特征。即使提及,这些特征也不是我们的研究中进行归纳的依据,我们依据的是对语音特征有所表现的标点符号等字面上可见的特征。本书把有一定篇幅的文章称作语篇(text),而不是篇章(discourse),后者常常联系于口语交谈,这不是本书所关注的。本书关注的语篇是各种常见的书面文本,包括小说、百科、工作报告、新闻、述评等,但不包括诗歌、剧本、口语记录等特殊语体的文本。
功能语法把语篇内的语法层级划分为语素、词、词组/短语、小句、小句复合体(Halliday 2004),本书研究的是小句复合体层级。小句复合体大致上相当于通常所说的句子,包括汉语语法中说的单句和复句。为了说清楚小句复合体,必须说清楚小句,因为这是它的直接成分;还要说到语篇,因为小句复合体是语篇的直接成分。对于小句,本书并不深入涉及常说的主谓关系的句法结构,而是另做分析。对于语篇,仅限于说明它们同小句复合体的关系,并不做详细讨论。
本书研究的自然语言主要是汉语,全部材料来自白话文,包括白话文的古典小说。本书还在一定的深度上论及英语。在单一的语言中很难把一个语法层级说清楚。通过英汉比较,可以更深刻地理解小句复合体。
二
为什么要研究小句复合体的语法结构
每一个语法层级(词,词组/短语,小句,小句复合体)都应该有该层级的构造法则,即如何由下一层级的语法单位构造出该层级的语法单位,使语言的使用有所约束和依凭,使语言的使用者之间能在交际中相互理解。对于自然语言处理来说,也能提供有一定刚性的约束和依凭。
词层级的构造法则是语素如何组成词的规则,即词法;词组/短语层级的构造法则是词如何组成词组和短语的规则,即词组/短语语法;小句层级的构造法则是短语和词组如何组成小句的规则,即句法;小句复合体层面的构造法则是小句如何组成小句复合体的规则,即小句复合体语法。
目前,词法和句法研究得很多,小句复合体层级的语法研究得不多,小句如何组成小句复合体还不清楚。语法研究多是关注句子。从形式上看,句子的概念在英语中比较清楚,汉语中并不清楚,常常使用的相关术语还有小句、分句、单句、复句、子句等。本书则不用句子这个术语,而是采用功能语法的体系,词组/短语的上层是小句,小句的上层是小句复合体,再上面就是语篇了。本书将给出小句和小句复合体概念的定义和划分的操作方法。这两个概念的定义搞清楚了,关于单句复句划界的争论也就自然化解了。本书研究小句复合体的语法结构,就是研究小句组合成小句复合体的理论和相关的操作方法。
自然语言处理最终都归结为语义处理。从语义上看,小句应该表现关于事物关系(事物与属性的关系,事物与状态的关系,事物与事物的关系,事物与行为的关系等)的命题,小句复合体应该表现关系密切的若干命题的组合。通过研究小句组合成小句复合体的理论和操作方法,我们希望能从语篇中提取这样的小句,划分出这样的小句复合体。把自然语言语义处理的任务分解为小句的命题处理和小句复合体的命题组合处理,从而化繁为简,逐个击破,最终完成任务。
这项工作有重要意义:
凡涉及文本语义的自然语言处理的应用,都需要在书面文本中切分出小句和小句复合体,这是一件基础性的工作。目前自然语言的语篇处理不断升温,但相关的语言学理论并不完善,形式模型并不完全符合实际的语言现象,作者希望本书的工作能在这方面有所改进,提炼出比较确切的形式模型,这一方面关乎语法理论的发展,另一方面也为小句复合体计算模型的设计打下基础,进而支持相关的应用。
小句复合体是与事理认知对应的基本的文本单位。事理认知的文本单位如何展开,靠什么来表达复杂的关系,靠什么保持意义的连贯衔接?研究清楚这些问题,对于厘清语言的本质有重要意义,进而会对人类语言共同规律的研究做出贡献。
三
本书的研究方法
本书的研究方法首先是以语言事实为本。我们考察大量真实的书面话语语料,发现语言现象,提取语言概念,归纳语法模式和规律,上升为理论。为此,我们建立了50余万字的汉语小句复合体语料库(Chinese Clause Complex Bank,记作CCCB),包括新闻、小说、工作报告、百科词条;又建立了5000余个英语小句复合体的英汉小句对齐语料库(English-Chinese Clause Alignment Corpus,记作ECCAC)。对于语料,我们反复标注和修订。具体的过程是:在语料考察中形成理论雏形;依据理论的雏形,定出标注方法,进行语料标注;在标注中发现无法纳入已有理论体系的现象,便修订理论,修改标注方法,重新标注语料。如此往复,多数语料标注了10遍以上,有些语料标注了几十遍。
这一研究工作的重要目的是可应用于自然语言的计算机处理。为此,我们追求的标准是可操作和全覆盖。
所谓可操作,首先是对于人来说的。我们总结出汉语小句复合体的理论,理论中所有概念都要求有明确的定义,使得人能有一致的理解,可以通过语料标注展现出来。为此要订立标注规范。我们要求这个规范对于人来说是可操作的。具体来说,对于母语为汉语、具有一定语言素养的人员,用标注规范进行短期培训,然后让他们标注语料,反复几次熟悉规范之后,除了语言本身造成的歧义和两可性之外,他们标注的结果应当具有高度的一致性。
可操作的要求也是针对机器的。首先,相关概念对应的话语中的基本成分,应当大体上可以被机器自动识别。进而,对于人工按预期目标标注好的语料,机器应能遵照标注符号进行自动分析和变换,所得到的结构应该同人预期的结果完全一致。
所谓全覆盖,就是要求对于每个语篇,从头到尾都能纳入到理论所归纳的概念和模式之中。落实到语料库,就是我们的标注是对所有语篇从头到尾进行的,不得略过任何一个字词和标点、符号。
这样的全覆盖,从理论看是很重要的。对于某种语言现象,应当考察这种现象在话语中的全部出现,归纳出有关这种现象的概念、模式、性质等,才能成为关于这种现象的理论。仅仅举一些例子还不能说明问题,仅仅适合于某些词库、短语库、句库、句型库也不够。本书研究的是整个一个语法层级,不是一个局部的语言现象,因此需要覆盖各种类型的语篇,而且都是整个的语篇。当然,由于可能的话语无穷无尽,彻底的全覆盖是不可能的。所以,我们的要求是排除了特殊语体后,在标注工作量可承受的范围内,无排斥地收集语料。收集到的语料中,除了明显的行文错误以外,都应该在理论涵盖的范围内。
我们所说的全覆盖并不以覆盖某个词表或句型表为标准,而是以覆盖各种体裁、各种题材的语篇为标准。一般的词表和句型表是静态的型(type),是抽象、规整的语言单位的列举;但真实语言现象是动态的例(token),是实在、活用的。它们出现在真实的语篇中,因此面向应用的语言理论研究必须做到对多种语篇从头到尾的覆盖。语言理论对真实语篇的覆盖程度很难量化(其实词表、句型表对真实语篇的覆盖程度也一样难以量化)。不过,一般来说,如果一个语言理论对非特意筛选的、有相当数量的语篇都能从头到尾地覆盖,那么它的覆盖程度就应该是大概地有把握的。在应用中可能会发现一些语言现象难以纳入既有理论。如果这类现象某种程度上反映了语言的本质,那么就应该修改和扩充既有理论,这就是说语言理论应当是动态发展的;否则,这类现象应该属于非主流的边界现象,应该在理论上予以解释,应用上采用适当的技术手段来处置。
对于自然语言处理的应用来说,全覆盖的研究更是非常重要。机器为着某个应用目标来处理自然语言文本,它不应该也没有能力来分辨哪些文本、文本中哪些片段是它能够或不能处理的。
语料之于语言学,如同岩石标本之于地质学、生物标本之于生物学。本书的对于语料的可操作、全覆盖的研究,使得所归纳的理论可以得到客观验证,并可以形式化、算法化,具有应用于自然语言处理的潜景。
上面说的可操作、全覆盖是我们建立理论、标注语料时心目中追求的目标,实际的工作效果并不能完全达到这个目标。原因有三方面。一是受到检验的语料规模还不够;二是人在阅读中的惯性和惰性更会造成下意识的迁就;三是自然语言文本是一种自然对象,同其他自然对象一样在主流的规律之外会有种种边界现象。不过,既然是我们明确坚守的目标,这个工作的成果应该是大体上经得起检验的,边界现象也会有所分析和解释,有问题之处应该是会被逐步发现、弥补和改正的。
四
章节安排和相关论著
本书第一部分即从第1章到第4章介绍小句复合体语法结构的基本概念。第二部分即第5章到第12章讨论小句复合体内小句之间各种成分共享模式及其分析算法。第三部分即第13章到第16章结合各种模式讨论话头话身结构等成分共享的性质,并讨论了几种边界现象。第四部分即第17章到第19章讨论小句复合体的成分共享机制,将成分共享同成份省略及零形指代区分开来。这些章节除第1章外都是立足于汉语的,第1章兼顾英语和汉语分析当前流行的句子和小句概念的问题。第五部分即第20章到第23章讨论英语小句复合体的语法结构,介绍英汉小句复合体语法结构的异同及其对机器翻译的影响。第六部分即第24章和第25章介绍汉语小句复合体语料库和英汉小句对齐语料库的建设。第26章是本书内容的总结。
本书主要内容属于语言本体研究,只有第12章讨论算法,对算法不感兴趣的读者可以略过这一章。
在研究历程中,本书的工作曾有多篇论著发表,但有些术语前后不同。有关汉语的内容可见于参考文献中黄建传、季翠、卢达威、鲁松、尚英、宋柔、王经益、张瑞朋的论著;有关英语和英汉比较、英汉翻译的内容可见于方菲、林晓萍、宋柔(2015)、Fang Fei、Ge Shili、Lin Xiaoping和Song Rou的论文,嵇旭颖、蒋吉媛、袁炜的论文是广东外语外贸大学葛诗利教授带领下的进一步的工作。
基于小句复合体理论的计算方面的工作已经开展。北京信息科技大学蒋玉茹副教授、北京语言大学罗智勇副教授带领学生以本书提出的小句复合体理论作为形式模型,先后开展了计算机自动分析的工作。见参考文献中何晓文、胡紫娟、贾泓昊、蒋玉茹、刘祥、毛腾、王瑞琦、张禹尧、Jiang Yuru、Liu Xiang、Mao T的论著。
青岛大学邢富坤教授带领学生做了语料库建设和分析的拓展工作,见参考文献中孙晓迪、王倩蓉的论文。
小句复合体理论已在对外汉语教学中开始应用。北京语言大学施春宏教授、北京外国语大学熊文新教授、中国人民大学卢达威博士带领学生将小句复合体理论应用于留学生汉语教学,见参考文献中夏文津、杨曼菱、游豪、朱钰麒的论文。
图书信息
《小句复合体的语法结构》
宋柔 著
识别二维码,即可购买
小句复合体是小句之上的语法层面。本书基于汉语和英语的小句复合体语料库建设,提出话头话身关系和成分共享机制的概念,在二维图景下揭示出话头话身结构的语法模式及其语法语义性质,以及成分共享机制的特征。话头话身关系是汉英小句的基本结构关系。话头话身结构的成分共享机制是构建这两种语言小句复合体的基本语法手段。通过对比英汉小句复合体语法结构的异同,设计了一种英汉机器翻译模型。本书的研究工作追求对语料的全覆盖和对语言现象的可操作,注重认知解释,以便服务于计算机处理和认知科学研究。
目 录
<上下滑动查看目录>
<上下滑动查看目录>
作者简介
宋柔,计算机应用专业和应用语言学专业博士生导师。1968年北京大学数学力学系数学专业本科毕业,1981年北京大学计算机系计算机科学理论专业研究生毕业获硕士学位。1982年—2000年在北京工业大学计算机学院任教,2000年—2012年在北京语言大学任教。曾为美国伊利诺伊大学高级访问学者,微软中国研究院、香港城市大学、香港理工大学访问教授,广东外语外贸大学云山讲座讲授。在人工智能程序设计语言、汉语自动分词、汉语计算机辅助校对、汉语自动简繁转换、汉语字词属性检索、开放性汉字字形形式化、汉语词性、小句复合体语法结构等方面取得理论成果并开发了相应的软件。
往期回顾
❖
❖
❖
❖
蒋绍愚:语言的艺术 艺术的语言 丨《唐宋诗词的语言艺术》面世
❖
《唐宋词举要》丨 一灯莹然,清茗在旁,展读此书,人生乐事莫过于此
❖
点击“阅读原文”可购买此书